Average word length | # of sentences | Source |
---|---|---|
13.23 | 10 | http://or.wikipedia.org/wiki/ଭାତ |
13.34 | 23 | http://or.wikipedia.org/wiki/ଲସି |
13.44 | 47 | http://or.wikipedia.org/wiki/ପଣସ |
13.45 | 14 | http://or.wikipedia.org/wiki/କୋଚିଲା |
13.60 | 12 | http://or.wikipedia.org/wiki/ମାଂସ_କସା |
13.60 | 11 | http://or.wikipedia.org/wiki/ରେମୁଣା |
13.66 | 12 | http://or.wikipedia.org/wiki/ଗୁପଚୁପ |
13.69 | 12 | http://or.wikipedia.org/wiki/ସ୍ଟାଇ |
13.72 | 18 | http://or.wikipedia.org/wiki/ମଦ |
13.72 | 12 | http://or.wikipedia.org/wiki/ବୁନ୍ଦି_,_ରାଜସ୍ଥାନ |
13.75 | 10 | http://or.wikipedia.org/wiki/ଶ୍ରୀନିବାସରାଘବନ_ଭେଙ୍କଟରଘବନ |
13.78 | 12 | http://or.wikipedia.org/wiki/ଦୀପା_ଶାହୀ |
13.80 | 28 | http://or.wikipedia.org/wiki/ହନୁମାନ_ଚାଳିଶା |
13.80 | 10 | http://or.wikipedia.org/wiki/କୈଲା_ଦେବୀ_ମନ୍ଦିର_,_ଆଜମେର |
13.83 | 10 | http://or.wikipedia.org/wiki/ଲିଆ |
13.84 | 12 | http://or.wikipedia.org/wiki/ନାକରୁ_ରକ୍ତସ୍ରାବ |
13.87 | 24 | http://or.wikipedia.org/wiki/ବାଇଗଣ |
13.88 | 13 | http://or.wikipedia.org/wiki/ବର_କୋଳି |
13.92 | 29 | http://or.wikipedia.org/wiki/ଜଳ |
13.94 | 10 | http://or.wikipedia.org/wiki/ଜଗତସିଂହପୁର |
13.95 | 13 | http://or.wikipedia.org/wiki/ଚିନି |
13.96 | 17 | http://or.wikipedia.org/wiki/ଗୋୱାଳିଆ_ଟେଙ୍କ_,_ମୁମ୍ବାଇ |
14.00 | 19 | http://or.wikipedia.org/wiki/ଶେଉଳ |
14.02 | 11 | http://or.wikipedia.org/wiki/ଚାନ୍ଦୁ_ସର୍ବତେ |
14.03 | 70 | http://or.wikipedia.org/wiki/ଶିଶୁ_ସମ୍ପଦ |
14.08 | 15 | http://or.wikipedia.org/wiki/ରୁଦ୍ର_ପ୍ରତାପ_ସିଂହ_,_କ୍ରିକେଟର |
14.09 | 13 | http://or.wikipedia.org/wiki/ଉଦର_ମହାଧମନୀ_ସ୍ପୀତି |
14.10 | 20 | http://or.wikipedia.org/wiki/ଲାଜକୁଳୀ_ଲତା |
14.11 | 18 | http://or.wikipedia.org/wiki/ପ୍ରାନ୍ତୀୟ_ଧମନୀ_ରୋଗ |
14.13 | 10 | http://or.wikipedia.org/wiki/ଧଣିଆ |
Average word length | # of sentences | Source |
---|---|---|
21.04 | 17 | http://or.wikipedia.org/wiki/ରାମନାଥସ୍ଵାମୀ_ମନ୍ଦିର |
20.95 | 26 | http://or.wikipedia.org/wiki/ଭାରତର_ପ୍ରଧାନମନ୍ତ୍ରୀ |
20.56 | 33 | http://or.wikipedia.org/wiki/ହରପ୍ପା_ସଭ୍ୟତା |
20.47 | 16 | http://or.wikipedia.org/wiki/ଜାତୀୟ_ଭାଷା_ସମ୍ମିଳନୀ |
20.47 | 13 | http://or.wikipedia.org/wiki/ଟୋକେଲାଉ |
20.33 | 55 | http://or.wikipedia.org/wiki/ଶ୍ରୀକ୍ଷେତ୍ର_ଦେବାଦେବୀ |
20.27 | 17 | http://or.wikipedia.org/wiki/ମହାକର୍ଷଣୀୟ_ତରଙ୍ଗ |
20.15 | 13 | http://or.wikipedia.org/wiki/ଲିଓନେଲ_ବୁଷ୍ଟର_କ୍ରାବ |
20.13 | 10 | http://or.wikipedia.org/wiki/ବସନ୍ତ_କୁମାରୀ_ପଟ୍ଟନାୟକ |
20.12 | 10 | http://or.wikipedia.org/wiki/ନୋବେଲ_ପୁରସ୍କାର |
20.09 | 10 | http://or.wikipedia.org/wiki/ଚଣ୍ଡିଗଡ_ବୈଷୟିକ_ମହାବିଦ୍ୟାଳୟ |
20.05 | 11 | http://or.wikipedia.org/wiki/ଫ୍ଲାସ୍ବ୍ୟାକ |
20.02 | 11 | http://or.wikipedia.org/wiki/ଗୋବର୍ଦ୍ଧନ_ପୀଠ |
20.01 | 18 | http://or.wikipedia.org/wiki/ପ୍ରିୟା_ଚୌଧୁରୀ |
19.95 | 58 | http://or.wikipedia.org/wiki/ଆଲଫ୍ରେଡ଼_ନୋବେଲ |
19.94 | 13 | http://or.wikipedia.org/wiki/ରାମାନନ୍ଦ_ରାୟ |
19.92 | 15 | http://or.wikipedia.org/wiki/ଆଜ୍ଞାମାଳ |
19.85 | 13 | http://or.wikipedia.org/wiki/ଭାରତର_ନୋବେଲ_ପୁରସ୍କାର_ବିଜେତା |
19.85 | 65 | http://or.wikipedia.org/wiki/ଅସହଯୋଗ_ଆନ୍ଦୋଳନ |
19.80 | 37 | http://or.wikipedia.org/wiki/ଗରୁଡ଼_କମାଣ୍ଡୋ |
19.79 | 27 | http://or.wikipedia.org/wiki/ଉତ୍କଳ_ବିଶ୍ଵବିଦ୍ୟାଳୟ |
19.75 | 14 | http://or.wikipedia.org/wiki/ସାମନ୍ତ_ଚନ୍ଦ୍ରଶେଖର_ସ୍ୱୟଂଶାସିତ_ମହାବିଦ୍ୟାଳୟ |
19.72 | 17 | http://or.wikipedia.org/wiki/ଗିଡନ୍_ସଣ୍ଡ୍ବ୍ୟାକ୍ |
19.71 | 27 | http://or.wikipedia.org/wiki/ଗୋସାଣୀ_ଯାତ୍ରା |
19.69 | 24 | http://or.wikipedia.org/wiki/କେଦାରନାଥ_ମନ୍ଦିର |
19.68 | 10 | http://or.wikipedia.org/wiki/ସାମବେଦ |
19.67 | 58 | http://or.wikipedia.org/wiki/ମାଦଳା_ପାଞ୍ଜି |
19.67 | 11 | http://or.wikipedia.org/wiki/ଶ୍ରାବଣୀ_ନନ୍ଦ |
19.66 | 11 | http://or.wikipedia.org/wiki/ଏରିଥ୍ରୋମାଇସିନ |
19.64 | 29 | http://or.wikipedia.org/wiki/ପ୍ରାଣକୃଷ୍ଣ_ପରିଜା |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words